Transcription of legal proceedings is very important to enable access to justice. However, speech transcription is an expensive and slow process. In this paper we describe part of a combined research and industrial project for building an automated transcription tool designed specifically for the Justice sector in the UK. We explain the challenges involved in transcribing court room hearings and the Natural Language Processing (NLP) techniques we employ to tackle these challenges. We will show that fine-tuning a generic off-the-shelf pre-trained Automatic Speech Recognition (ASR) system with an in-domain language model as well as infusing common phrases extracted with a collocation detection model can improve not only the Word Error Rate (WER) of the transcribed hearings but avoid critical errors that are specific of the legal jargon and terminology commonly used in British courts.
translated by 谷歌翻译
首字母缩略词是通过在文本中使用短语的初始组件构建的短语单元的缩写单元。自动提取文本中的首字母缩略词可以帮助各种自然语言处理任务,如机器翻译,信息检索和文本汇总。本文讨论了缩写式萃取任务的集合方法,利用两种不同的方法提取缩略语及其相应的长形式。第一种方法利用多语言语境语言模型,并进行微调模型以执行任务。第二种方法依赖于卷积神经网络架构,以提取首字母缩略词并将其附加到先前方法的输出。我们还将官方培训数据集增强,其中包含从几个开放式期刊中提取的其他培训样本,以帮助提高任务性能。我们的数据集分析还突出显示当前任务数据集中的噪声。我们的方法在通过任务发布的测试数据上实现了以下宏观F1分数:丹麦语(0.74),英语 - 法律(0.72),英语 - 科学(0.73),法语(0.63),波斯(0.57),西班牙语(0.65) ,越南语(0.65)。我们公开发布我们的代码和模型。
translated by 谷歌翻译
网络和时间点过程是建模各个领域中复杂动态关系数据的基本构件。我们建议使用节点的潜在空间表示形式,提出了潜在空间鹰队(LSH)模型,这是一种连续时间的关系网络的新型生成模型。我们使用共同令人兴奋的霍克斯工艺在节点之间建模关系事件,其基线强度取决于潜在空间中的节点与发件人和接收器特定效果之间的距离。我们证明,我们提出的LSH模型可以复制在包括互惠和传递性在内的真实时间网络中观察到的许多功能,同时还可以实现卓越的预测准确性并提供比现有模型更明显的拟合。
translated by 谷歌翻译
随机块模型(SBM)是用于网络数据最广泛使用的生成模型之一。鉴于块或社区成员身份,许多连续的动态网络模型都建立在与SBM相同的假设上:有条件地有条件地独立在真实网络中观察到。我们提出了多元社区霍克斯(Mulch)模型,这是一种非常灵活的基于社区的模型,用于连续时间网络,使用结构化的多元霍克斯工艺在节点对之间引入依赖性。我们使用基于光谱聚类和基于可能性的本地改进程序拟合模型。我们发现,我们所提出的覆盖模型比在预测和生成任务中都比现有模型更准确。
translated by 谷歌翻译